Machine-Generated Text (MGT) detection, a task that discriminates MGT from Human-Written Text (HWT), plays a crucial role in preventing misuse of text generative models, which excel in mimicking human writing style recently. Latest proposed detectors usually take coarse text sequence as input and output some good results by fine-tune pretrained models with standard cross-entropy loss. However, these methods fail to consider the linguistic aspect of text (e.g., coherence) and sentence-level structures. Moreover, they lack the ability to handle the low-resource problem which could often happen in practice considering the enormous amount of textual data online. In this paper, we present a coherence-based contrastive learning model named CoCo to detect the possible MGT under low-resource scenario. Inspired by the distinctiveness and permanence properties of linguistic feature, we represent text as a coherence graph to capture its entity consistency, which is further encoded by the pretrained model and graph neural network. To tackle the challenges of data limitations, we employ a contrastive learning framework and propose an improved contrastive loss for making full use of hard negative samples in training stage. The experiment results on two public datasets prove our approach outperforms the state-of-art methods significantly.
translated by 谷歌翻译
图像文本聚类(ITC)的目标是通过整合这些异质样品的多模式的互补和一致信息来找到正确的簇。但是,目前的大多数研究都根据理想的前提分析了ITC,即每种模式中的样本都是完整的。但是,在现实情况下,这种推定并不总是有效的。缺少的数据问题使图像文本特征学习性能退化,并最终会影响ITC任务中的概括能力。尽管已经提出了一系列方法来解决此不完整的图像文本群集问题(IITC),但仍然存在以下问题:1)大多数现有方法几乎不考虑异质特征域之间的明显差距。 2)对于缺少数据,很少保证由现有方法生成的表示形式适合聚类任务。 3)现有方法不利用内部和内部模式的潜在连接。在本文中,我们提出了一个聚类引起的生成不完整的图像文本聚类(CIGIT-C)网络,以应对上述挑战。更具体地说,我们首先使用特定于模态的编码器将原始功能映射到更独特的子空间。通过使用对抗生成网络在另一种模态上产生一种方式,可以彻底探索内部内部和模式之间的潜在连接。最后,我们使用两个KL DiverGence损失更新相应的模态特异性编码器。公共图像文本数据集的实验结果表明,建议的方法优于IITC作业更有效。
translated by 谷歌翻译
在无监督的域自适应(UDA)语义分割中,基于蒸馏的方法目前在性能上占主导地位。但是,蒸馏技术需要使多阶段的过程和许多培训技巧复杂化。在本文中,我们提出了一种简单而有效的方法,可以实现高级蒸馏方法的竞争性能。我们的核心思想是从边界和功能的观点充分探索目标域信息。首先,我们提出了一种新颖的混合策略,以产生具有地面标签的高质量目标域边界。与以前的作品中的源域边界不同,我们选择了高信心目标域区域,然后将其粘贴到源域图像中。这样的策略可以使用正确的标签在目标域(目标域对象区域的边缘)中生成对象边界。因此,可以通过学习混合样品来有效地捕获目标域的边界信息。其次,我们设计了多层对比损失,以改善目标域数据的表示,包括像素级和原型级对比度学习。通过结合两种建议的方法,可以提取更多的判别特征,并且可以更好地解决目标域的硬对象边界。对两个常用基准测试的实验结果(\ textit {i.e。},gta5 $ \ rightarrow $ cityScapes and synthia $ \ rightarrow $ cityScapes)表明,我们的方法在复杂的蒸馏方法上取得了竞争性能。值得注意的是,对于Synthia $ \ rightarrow $ CityScapes方案,我们的方法以$ 57.8 \%$ MIOU和$ 64.6 \%$ MIOU的16堂课和16堂课实现了最先进的性能。代码可在https://github.com/ljjcoder/ehtdi上找到。
translated by 谷歌翻译
变形金刚在NLP和计算机视觉上实现了突破,最近开始在自动驾驶汽车(AV)的轨迹预测中表现出有希望的表现。如何有效地对自我代理与其他道路和动态对象之间的交互关系建模仍然对标准注意模块仍然具有挑战性。在这项工作中,我们提出了一个类似变压器的架构模块MNM网络,该网络配备了新型掩盖的目标调节训练程序,用于AV轨迹预测。最终的模型名为高尔夫球手,取得了最先进的性能,在2022 Waymo Open DataSet Motion Predict挑战中赢得了第二名,并根据Minade排名第一。
translated by 谷歌翻译
大多数避免障碍算法仅在特定环境中有效,并且对某些新环境的适应性较低。在本文中,我们提出了一种轨迹学习(TL)的避免算法,该算法可以从一般障碍避免算法产生的轨迹中学习隐式避免机制,并实现更好的适应性。具体而言,我们定义了一个通用数据结构来描述避免障碍机制。基于这种结构,我们将学习障碍算法的学习转换为有关方向选择的多类分类问题。然后,我们设计一个人工神经网络(ANN),以通过监督学习来拟合多类分类功能,并最终获得产生观察到的轨迹的障碍物避免机制。我们的算法可以获得类似于轨迹中所示的障碍机制,并且适合看不见的环境。自动学习机制简化了应用程序中障碍算法的修改和调试。仿真结果表明,所提出的算法可以从轨迹学习避免障碍策略并获得更好的适应性。
translated by 谷歌翻译
我们提出了一个简单而有效的完全卷积的一阶段3D对象检测器,用于自主驾驶场景的LIDAR点云,称为FCOS-LIDAR。与使用鸟眼视图(BEV)的主要方法不同,我们提出的检测器从激光雷达点的范围视图(RV,又称范围图像)中检测对象。由于范围视图的紧凑性和与LIDAR传感器在自动驾驶汽车上的采样过程的兼容性,因此可以通过仅利用Vanilla 2D卷积来实现基于范围视图的对象检测器,而脱离了基于BEV的方法,这些方法通常涉及复杂的方法体素化操作和稀疏卷积。我们首次表明,仅具有标准2D卷积的基于RV的3D检测器就可以实现与基于BEV的最新检测器相当的性能,同时更快,更简单。更重要的是,几乎所有以前的基于范围视图的检测器都只关注单帧点云,因为将多帧点云融合到单个范围视图中是具有挑战性的。在这项工作中,我们通过新颖的范围视图投影机制解决了这个具有挑战性的问题,并首次展示了基于范围视图的检测器融合多帧点云的好处。关于Nuscenes的广泛实验表明了我们提出的方法的优越性,我们认为我们的工作可以有力证明基于RV的3D检测器可以与当前基于BEV的主流探测器相比。
translated by 谷歌翻译
机器学习在虚拟筛选中显示出巨大的潜力,用于药物发现。目前正在加速基于对接的虚拟筛选的努力不考虑使用其他先前开发的目标的现有数据。为了利用其他目标的知识并利用现有数据,在这项工作中,我们将多任务学习应用于基于对接的虚拟筛选问题。通过两个大型对接数据集,广泛实验结果表明,多任务学习可以实现对接分数预测的更好性能。通过在多个目标上学习知识,由多任务学习训练的模型显示了适应新目标的更好能力。额外的实证研究表明,药物发现中的其他问题,例如实验药物 - 目标亲和预测,也可能受益于多任务学习。我们的结果表明,多任务学习是基于对接的虚拟筛选和加速药物发现过程的有前途的机器学习方法。
translated by 谷歌翻译
生成对抗性网络(GANS)的最新进展导致了面部图像合成的显着成果。虽然使用基于样式的GAN的方法可以产生尖锐的照片拟真的面部图像,但是通常难以以有意义和解开的方式控制所产生的面的特性。之前的方法旨在在先前培训的GaN的潜在空间内实现此类语义控制和解剖。相比之下,我们提出了一个框架,即明确地提出了诸如3D形状,反玻璃,姿势和照明的面部的身体属性,从而通过设计提供解剖。我们的方法,大多数GaN,与非线性3D可变模型的物理解剖和灵活性集成了基于风格的GAN的表现力和质感,我们与最先进的2D头发操纵网络相结合。大多数GaN通过完全解散的3D控制来实现肖像图像的照片拟理性操纵,从而实现了光线,面部表情和姿势变化的极端操作,直到完整的档案视图。
translated by 谷歌翻译
The objective of this paper is to learn dense 3D shape correspondence for topology-varying generic objects in an unsupervised manner. Conventional implicit functions estimate the occupancy of a 3D point given a shape latent code. Instead, our novel implicit function produces a probabilistic embedding to represent each 3D point in a part embedding space. Assuming the corresponding points are similar in the embedding space, we implement dense correspondence through an inverse function mapping from the part embedding vector to a corresponded 3D point. Both functions are jointly learned with several effective and uncertainty-aware loss functions to realize our assumption, together with the encoder generating the shape latent code. During inference, if a user selects an arbitrary point on the source shape, our algorithm can automatically generate a confidence score indicating whether there is a correspondence on the target shape, as well as the corresponding semantic point if there is one. Such a mechanism inherently benefits man-made objects with different part constitutions. The effectiveness of our approach is demonstrated through unsupervised 3D semantic correspondence and shape segmentation.
translated by 谷歌翻译
Communication is supposed to improve multi-agent collaboration and overall performance in cooperative Multi-agent reinforcement learning (MARL). However, such improvements are prevalently limited in practice since most existing communication schemes ignore communication overheads (e.g., communication delays). In this paper, we demonstrate that ignoring communication delays has detrimental effects on collaborations, especially in delay-sensitive tasks such as autonomous driving. To mitigate this impact, we design a delay-aware multi-agent communication model (DACOM) to adapt communication to delays. Specifically, DACOM introduces a component, TimeNet, that is responsible for adjusting the waiting time of an agent to receive messages from other agents such that the uncertainty associated with delay can be addressed. Our experiments reveal that DACOM has a non-negligible performance improvement over other mechanisms by making a better trade-off between the benefits of communication and the costs of waiting for messages.
translated by 谷歌翻译